我们探索将不受约束的自然语言反馈作为人工智能体的学习信号。人类使用丰富多样的语言来教学,但之前大多数关于语言交互式学习的研究都假设了一种特定的输入形式(例如命令)。我们提出了一个不做这种假设的通用框架,使用基于方面的情绪分析将反馈分解为对马尔可夫决策过程特征的情绪。然后,我们执行逆向强化学习的类似操作,将情绪回归到特征上以推断教师的潜在奖励函数。为了评估我们的方法,我们首先在一个合作任务中收集教学行为语料库,其中教师和学习者都是人类。我们实现了三个人工智能学习器:基于情绪的“文字”和“语用”模型,以及一个端到端训练的推理网络,以预测潜在奖励。然后,我们重复最初的实验,并将它们与人类教师配对。这三个人都成功地从交互式人类反馈中学习。情绪模型的表现优于推理网络,而“实用”模型的表现接近人类。因此,我们的工作提供了对自然语言反馈信息结构的洞察,以及利用它来进行强化学习的方法。
主要关键词